本科毕业论文:基于 Prompt Learning 的视觉-语言大模型在图像生成中的应用与研究
本篇论文主要基于 IPL 的思想实现。本仓库大部分从 IPL-Zero-Shot-Generative-Model-Adaptation fork 而来并做出了一定修改。
依赖
创建 Anaconda 虚拟环境
conda create -n ipl python=3.8
conda activate ipl
安装依赖
请确保 NVIDIA 驱动、CUDA 以及 PyTorch 之间版本互相匹配。
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
pip install ftfy regex tqdm ninja
pip install git+https://github.com/openai/CLIP.git
下载预训练生成器
预训练的源域生成器可以通过 Google Drive 或者 Tsinghua Cloud 下载,并将其置于 ./pre_stylegan
文件夹中。
概述
技术细节
prompts 的初始化
ctx_init
参数用于初始化 prompts,官方提供的演示 context 是a photo of a
。
source_prompts = [prompt_prefix + " " + args.source_class]
target_prompts = [prompt_prefix + " " + args.target_class]
源域的初始提示词 source_prompts
是 ctx_init 与源域标签的组合。若源域标签为 photo
,则源域的初始提示词是 a photo of a photo
。目标域的初始提示词同理。